[MàJ] LAION-5B : des photos d’enfants utilisées sans consentement pour entrainer des IA

IA pas de consentement

Le 03 Juillet à 09h15

5 min

Human Right Watch a analysé une partie de la base de données LAION-5B très utilisée pour entrainer des outils d'IA générateurs d'images. L'ONG s'est rendu compte qu'elle contiendrait des liens vers des photos d'enfants brésiliens et australiens sans leur consentement.

Mise à jour le 3 juillet 2024 à 9h15 : ajout de la partie sur les photos d'enfants australiens

Article original publié le 11 juin 2024 à 17h22 :

L'ONG Human right watch explique avoir repéré des photos personnelles d'enfants brésiliens dans la base de données LAION-5B. Créée par le professeur de lycée allemand Christoph Schuhmann, celle-ci a été notamment utilisée par Stable Diffusion et par Google pour entrainer leurs modèles d'IA génératives de text-to-image.

Comment LAION a créé un jeu d’images d’entraînement à partir de zéro

Une toute petite partie de la base de données explorée

Ces photos ne figurent pas en tant que telles dans la base de données. LAION-5B liste notamment des liens vers diverses photos mises en ligne et qu'elle associe à du texte. Elle s'appuie sur l'autre base de données Common Crawl qui parcourt internet et stocke les contenus trouvés.

La chercheuse de l'ONG, Hye Jung Han, a examiné une toute petite partie de LAION-5B (moins de 0,0001 % des 5,85 milliards d'images) mais a trouvé 170 photos d'enfants brésiliens venant d'au moins 10 États du pays.

Des photos de moments intimes

La plupart de ces photos n'ont été vues que par très peu de personne et « semblent avoir bénéficié auparavant d'une certaine intimité » explique Human Rights Watch, qui a vérifié en utilisant des moteurs de recherche.

L'ONG affirme que LAION, l'association allemande fondée par Schuhmann pour gérer la base de données, a confirmé l'existence des liens vers ces photos dans sa base de données et a promis de les supprimer. Mais elle a ajouté qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.

Intelligence artificielle : la CNIL veut (re)concilier « innovation et respect des droits »

Dans une réponse à Wired, LAION a affirmé avoir supprimé les liens vers les contenus signalés par Human Right Watch. Mais un de ses représentants a ajouté que « la suppression des liens d'un ensemble de données LAION ne supprime pas ce contenu du web [...] il s'agit d'un problème plus vaste et très préoccupant, et en tant qu'organisation bénévole à but non lucratif, nous ferons notre part pour y remédier ».

Selon l'association, les photos listées par LAION représentaient « des moments intimes comme des bébés naissant entre les mains gantées de médecins, des jeunes enfants soufflant les bougies de leur gâteau d'anniversaire ou dansant en sous-vêtements à la maison, d'élèves faisant un exposé à l'école et d'adolescents posant pour des photos à carnaval du lycée ».

Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données. Ensuite, ces outils d'intelligence artificielle sont entrainés à partir de ces données et peuvent donc créer des images réalistes d'enfants ». Elle ajoute que « la technologie est développée de telle sorte que tout enfant qui possède une photo ou une vidéo de lui en ligne est désormais en danger, car n'importe quel acteur malveillant pourrait prendre cette photo, puis utiliser ces outils pour la manipuler à sa guise ».

LAION-5B plus accessible publiquement

Depuis décembre dernier, LAION-5B n'est plus accessible publiquement. L'association a pris cette décision car des chercheurs de Stanford ont identifié 3 226 liens vers des images pédocriminelles potentielles. « La plupart d'entre elles ont été identifiées comme telles par des tierces parties » expliquaient-ils.

Dans un communiqué sur son site, LAION affirmait qu'elle appliquait « une politique de tolérance zéro à l'égard des contenus illégaux et, dans un souci de prudence, nous retirons temporairement les jeux de données de LAION pour nous assurer qu'ils sont sûrs avant de les republier ».

Des photos d'enfants australiens utilisées

Hye Jung Han a aussi trouvé 190 photos d'enfants australiens dans LAION-5B, explique ce mardi 2 juillet l'ONG. Comme pour les photos des enfants brésiliens, celles-ci montrent des enfants dans toutes sortes de scènes de leur vie. Certains enfants australiens appartiennent à différents groupes aborigènes (Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi et Warlpiri).

Ici encore, la plupart des photos n'étaient pas disponibles via une requête dans un moteur de recherche.
L'une d'elles provient même d'une vidéo YouTube dont l'utilisateur avait pourtant fait attention à la mettre en « non répertoriée ».

Les noms de certains enfants figurent parfois dans la légende de la photo ou dans l'URL de l'adresse stockée par LAION-5B. De plus, l'ONG assure qu'il est souvent facile de retrouver l'identité des enfants ainsi que le lieu et le moment de la photo.

Human Right Watch affirme que « le gouvernement australien devrait adopter de toute urgence des lois visant à protéger les données des enfants contre les utilisations abusives alimentant l'IA ».

Commentaires (10)

tooschuss Abonné

Le 11/06/2024 à 19h52

Voilà encore le problème éthique en IA....

jeje07bis

Le 12/06/2024 à 02h59

rien de neuf.
Des applications android pour vieillir son visage font de meme. Ca fait une large base de donnees gratuites pour ameliorer la reconnaissance faciale. Applications bien entendu gratuites!

SebGF Abonné

Le 12/06/2024 à 08h22

Hye Jung Han explique à Wired que « leur vie privée est violée en premier lieu lorsque leur photo est récupérée et intégrée dans ces ensembles de données (...)

J'ai envie de dire que leur vie privée est violée à l'instant même où ces photos sont publiées publiquement sans leur consentement. Cf le sharenting.

C'est surtout une véritable éducation à la protection de celle-ci qu'il faut avoir. Si c'est posté sur Internet en public, tout le monde y a accès et tout le monde en fera ce qu'il voudra. Pas d'exception.

Mais elle a ajouté qu'il incombait aux enfants et à leurs tuteurs de retirer les photos personnelles des enfants de l'internet, ce qui, selon elle, constitue la protection la plus efficace contre les abus.

Voilà.

Modifié le 12/06/2024 à 08h23

Historique des modifications :

Posté le 12/06/2024 à 08h22

tazvld Abonné

Le 12/06/2024 à 09h09

#3.1

Il y a 20 ans, on nous disait que tout ce qui était déposé sur internet était à considérer comme publique. Et moi, perso, ça reste ma philosophie : je ne dépose rien que je ne veux pas voir diffusé publiquement.

xlp Abonné

Le 14/06/2024 à 10h39

#3.2

tazvld

Il y a 25 ans, internet était un espace quelque peu dangereux.
Maintenant il est peuplé de sociétés qui oeuvrent pour le bien de l'humanité, sans penser un instant à leur portefeuille.

jotak Abonné

Le 03/07/2024 à 22h06

#3.3

Publiquement accessible ne signifie qu'on peut légalement en faire ce qu'on veut.
C'est très bien d'avoir une hygiène numérique, ça n'excuse pas pour autant la réutilisation sans consentement ... a priori la question du droit d'auteur sur le matériel d'entraînement n'est pas tranchée (?)

Hier à 09h55

#3.4

jotak

Ce n'est pas une question d'excuser les usages sans consentement, mais plutôt d'attaquer le problème à la source : poster publiquement signifie que le premier tordu fera ce qu'il veut avec.

Peu importe que la loi d'un Etat qui lui est étranger le lui permette où non, les risques d'être poursuivi étant quasi nuls.

La génération de matériel pédopornographique par IA est tout autant une réalité et un business que ceux mettant en scène des adultes (c'est même un très vieux business, le photomontage de célébrités sur des corps nus ne date pas des deep fakes, il fallait juste plus de skill photoshop). Et pour fonctionner, ils ont besoin de données d'entraînement. La première action pour se protéger le plus possible de ça, c'est de ne pas publier en public.

(ne pas publier sur les pompes à données personnelles serait encore mieux, mais nous sommes à l'ère de la vanité, du narcissisme, du personal branding sur les médias sociaux, donc autant prêcher dans le désert)

Rappelez-vous qu'à une époque (je ne sais pas si ça existe encore), les sites comme Facebook s'accordaient une license d'exploitation sur les contenus que vous mettiez dessus. S'ils décidaient de foutre votre tronche sur une pub pour un plug anal ((c) Flock), ils en avaient le droit puisque vous leur aviez donné l'autorisation dans les CGU de 15km que personne ne lit. Depuis je pense que ça a sauté pour les européens à cause du RGPD qui exige un consentement libre et éclairé, mais dans le cas des autres pays aux législations moins contraignantes, j'ai des doutes.

serpolet Abonné

Hier à 16h49

#3.5

SebGF

"les CGU de 15km que personne ne lit"

L’homme qui lisait toutes les conditions générales vient de terminer son inscription à Caramail

fred42 Abonné

Le 03/07/2024 à 10h14

Donc, ces photos ont été utilisées sans violer de loi australienne.

Quant à la photo d'enfant en bas de l'article sur hrw.org qui est là pour demander des dons (déductibles pour les impôts, c'est bien précisé !), j'hésite entre vomir et rire du paradoxe. Finalement :

Le 03/07/2024 à 11h23

#4.1

On est pas à une contradiction près...

Catégories

Nous suivre

À propos

[MàJ] LAION-5B : des photos d’enfants utilisées sans consentement pour entrainer des IA

Une toute petite partie de la base de données explorée

Des photos de moments intimes

LAION-5B plus accessible publiquement

Des photos d'enfants australiens utilisées

Sommaire de l'article

Introduction

Une toute petite partie de la base de données explorée

Des photos de moments intimes

LAION-5B plus accessible publiquement

Des photos d'enfants australiens utilisées

La bibliothèque Polyfill détournée, des centaines de milliers de sites touchés

RGPD : la CNIL lituanienne condamne Vinted pour son système de « bannissement furtif »

Des SSD 2,5″ de 61,44 To chez Samsung et Solidigm, 122,88 To en ligne de mire

Apple supprime 25 applis VPN de son App Store en Russie

RockYou2024 : une « nouvelle » collection avec 10 milliards de mots de passe volés

Chez Twilio, 33 millions de numéros de téléphone volés à cause d’une API non sécurisée

Vivaldi mobile 6.8 accentue le blocage publicitaire et la personnalisation

La Chine a déposé 70 % des 54 000 brevets en matière d’intelligence artificielle générative

Médiation de la consommation : plus de 200 000 saisines, le délai moyen de traitement s’allonge

L’application ChatGPT pour Mac stockait les informations en clair

Commentaires (10)

Historique des modifications :